Viendo el tiempo: Evaluando el razonamiento cronológico en VLMs
Descubre cómo los VLMs fallan al razonar sobre el tiempo, usando atajos visuales en lugar de lógica cronológica. Nuevo benchmark y datasets para mejorar la IA.
Descubre cómo los VLMs fallan al razonar sobre el tiempo, usando atajos visuales en lugar de lógica cronológica. Nuevo benchmark y datasets para mejorar la IA.
Drive-KD destila conocimiento multi-profesor para VLMs en conducción autónoma: menor uso de GPU, mayor throughput y rendimiento superior en planificación.
ViCuR mejora el razonamiento visual en destilación multimodal on-policy usando señales visuales recuperables, superando métodos en +1.19%.
Descubre cómo Octopus-8B logra autocorrección eficiente en VLMs mediante aumento de trayectorias, superando a otros modelos con un 1.0 de puntuación y menor tiempo de entrenamiento.
Descubre cómo KeyVT optimiza la selección de vistas y tokens para responder preguntas sobre escenas 3D sin entrenamiento, superando a métodos existentes.
Conoce PRISM, un marco basado en VLMs que cambia el diagnóstico interno por auditoría externa para neutralizar backdoors con tasa de éxito menor al 1%.
Descubre por qué los modelos de lenguaje visual fallan al razonar sobre transformaciones físicas. Un nuevo estudio con 112 modelos revela limitaciones críticas.